中文字幕无码乱码人妻系列蜜桃|一二三四在线观看视频韩国|一区二区三区国产美女在线播放|欧洲熟妇色xxxx欧美老妇多毛

聯(lián)
咨詢熱線:

185-9527-1032

聯(lián)系QQ:

2863379292

官方微信:

齊寧:搜索引擎知識 網(wǎng)頁查重技術(shù)

全網(wǎng)營銷

導(dǎo)讀:對于搜索引擎來說,重復(fù)的網(wǎng)頁內(nèi)容是非常有害的。重復(fù)網(wǎng)頁的存在意味著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫里索引兩份相同的網(wǎng)

發(fā)表日期:2019-03-23

文章編輯:興田科技

瀏覽次數(shù):13202

標簽:

對于搜索引擎來說,重復(fù)的網(wǎng)頁內(nèi)容是非常有害的。重復(fù)網(wǎng)頁的存在意味著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫里索引兩份相同的網(wǎng)頁。當有人查詢時,在搜索結(jié)果中就會出現(xiàn)重復(fù)的網(wǎng)頁鏈接。所以無論是從搜索體驗還是系統(tǒng)效率檢索質(zhì)量來說這些重負網(wǎng)頁都是有害處的。

網(wǎng)頁查重技術(shù)起源于復(fù)制檢測技術(shù),即判斷一個文件內(nèi)容是否存在抄襲、復(fù)制另外一個或多個文件的技術(shù)。

1993年Arizona大學的Manber(Google現(xiàn)副總裁、工程師)推出了一個sif工具,尋找相似文件。1995年Stanford大學的Brin(Sergey Brin,Google創(chuàng)始人之一)和Garcia-Molina等人在“數(shù)字圖書觀”工程中首次提出文本復(fù)制檢測機制COpS(Copy protection System)系統(tǒng)與相應(yīng)算法[Sergey Brin et al 1995]。之后這種檢測重復(fù)技術(shù)被應(yīng)用到搜索引擎中,基本的核心技術(shù)既比較相似。

網(wǎng)頁和簡單的文檔不同,網(wǎng)頁的特殊屬性具有內(nèi)容和格式等標記,因此在內(nèi)容和格式上的相同相似構(gòu)成了4種網(wǎng)頁相似的類型。

1、兩個頁面內(nèi)容格式完全相同。

2、兩個頁面內(nèi)容相同,但格式不同。

3、兩個頁面部分內(nèi)容相同并且格式相同。

4、兩個頁面部分重要相同但格式不同。

實現(xiàn)方法:

網(wǎng)頁查重,首先將網(wǎng)頁整理成為一個具有標題和正文的文檔,來方便查重。所以網(wǎng)頁查重又叫“文檔查重”?!拔臋n查重”一般被分為三個步驟,一、特征抽取。二、相似度計算和評價。三、消重。

1.特征抽取

我們在判斷相似物的時候,一般是才能用不變的特征進行對比,文件查重第一步也是進行特征抽取。也就是將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,這一步是為了方面后面的特征比較計算相似度。

特征抽取有很多方法,我們這里主要說兩種比較經(jīng)典的算法,“I-Match算法”、“Shingle算法”。

“I-Match算法”是不依賴于完全的信息分析,而是使用數(shù)據(jù)集合的統(tǒng)計特征來抽取文檔的主要特征,將非主要特征拋棄。

“Shingle算法”通過抽取多個特征詞匯,比較兩個特征集合的相似程度實現(xiàn)文檔查重。

2.相似度計算和評價

特征抽取完畢后,就需要進行特征對比,因網(wǎng)頁查重第二步就是相似度計算和評價。

I-Match算法的特征只有一個,當輸入一篇文檔,根據(jù)詞匯的IDF值(逆文本頻率指數(shù),Inverse document frequency縮寫為IDF)過濾出一些關(guān)鍵特征,即一篇文章中特別高和特別低頻的詞匯往往不能反應(yīng)這篇文章的本質(zhì)。因此通過文檔中去掉高頻和低頻詞匯,并且計算出這篇文檔的唯一的Hash值(Hash簡單的說就是把數(shù)據(jù)值映射為地址。把數(shù)據(jù)值作為輸入,經(jīng)計算后即可得到地址值。),那些Hash值相同的文檔就是重復(fù)的。

Shingle算法是抽取多個特征進行比較,所以處理起來比較復(fù)雜一些,比較的方法是完全一致的Shingle個數(shù)。然后除以兩個文檔的Shingle總數(shù)減去一致的Shingle個數(shù),這種方法計算出的數(shù)值為“Jaccard 系數(shù)”,它可以判斷集合的相似度。Jaccard 系數(shù)的計算方法集合的交集除以集合的并集。

3.消重

對于刪除重復(fù)內(nèi)容,搜索引擎考慮到眾多收錄因素,所以使用了最簡單的最實用的方法。先被爬蟲抓取的頁面同時很大程度也保證了優(yōu)先保留原創(chuàng)網(wǎng)頁。

網(wǎng)頁查重工作是系統(tǒng)中不可缺少的,刪除了重復(fù)的頁面,所以搜索引擎的其他環(huán)節(jié)也會減少很多不必要的麻煩,節(jié)省了索引存儲空間、減少了查詢成本、提高了pageRank計算效率。方便了搜索引擎用戶。

本文首發(fā) 齊寧網(wǎng)絡(luò)營銷策劃 www.qi-ning.com 轉(zhuǎn)載請注明作者信息。謝謝!

齊寧 MSN: i@qining.org

相關(guān)推薦

更多新聞

  • 4-29

    2020

    全網(wǎng)營銷 / 2020-04-29

    大年初五我還在堅持寫原創(chuàng)文章

    一年中最隆重的春節(jié)已經(jīng)過去了,每次過完年,心里都有些不舍,因為又要離開親愛熟悉的家鄉(xiāng)開始陸陸續(xù)續(xù)返回工作地上班了,以前小時候也是,因為沒有時間玩了,大人們也都外出打工了,生活

    View details

  • 11-13

    2020

    全網(wǎng)營銷 / 2020-11-13

    漲知識SEO優(yōu)化對企業(yè)的意義及重要性!

      關(guān)于seo,首先獲得更多精準客戶。 有需求的用戶,基本都會在網(wǎng)上搜索關(guān)鍵詞,找到自己想要的內(nèi)容,企業(yè)網(wǎng)站做了SEO優(yōu)化,網(wǎng)站部署的關(guān)鍵詞,有了好的排名,那么就有

    View details

  • 6-3

    2019

    全網(wǎng)營銷 / 2019-06-03

    網(wǎng)建科技盤點網(wǎng)站優(yōu)化最常用的技巧與方法

    網(wǎng)站SEO的作用眾所皆知,人人也都希望能夠?qū)⒕W(wǎng)站優(yōu)化做的越來越好, 那么具體如何做網(wǎng)站的優(yōu)化呢?很多人都了解網(wǎng)站優(yōu)化是一個長期的過程,并且需要足夠的耐心與細心,而網(wǎng)站之所以能

    View details

  • 11-13

    2020

    全網(wǎng)營銷 / 2020-11-13

    【干貨分享】官網(wǎng)優(yōu)化SEO排名怎么做?

      關(guān)于官網(wǎng)優(yōu)化,其實吧想要做好網(wǎng)站外部鏈接。然而SEO說簡單也簡單,說復(fù)雜也復(fù)雜。團隊運用的是否為正規(guī)的技術(shù)? 我個人曾經(jīng)用過一些非正規(guī)技術(shù),但是經(jīng)過一

    View details

7777奇米四色成人眼影| 日本国产一区二区三区在线观看| 久久久精品一区aaa片| 亚洲av无码专区在线播放| 亚洲综合一区无码精品| 国产人妻精品一区二区三区| 丝袜人妖av在线一区二区| 亚洲va中文字幕不卡无码| 中文字幕理伦午夜福利片| 国产成年无码久久久久下载| 久久天天躁狠狠躁夜夜躁2014| 国产男女猛烈无遮挡免费网站| 曰本丰满熟妇xxxx性| 少妇私密会所按摩到高潮呻吟| 中文字幕天天躁日日躁狠狠躁免费 | 国产成人久久精品二区三区| 亚洲av成人无码精品网站| 少妇白浆高潮无码免费区| 亚洲国产精品无码中文在线| 凹凸国产熟女精品视频| 日韩精品无码一区二区| 国产成人精品午夜视频| 日韩精品无码中文字幕一区二区| 四虎影视在线影院在线观看| 人人妻人人超人人| 97夜夜澡人人爽人人| 色欲精品国产一区二区三区av| 99久久国产热无码精品免费 | 国产亚洲精品久久久久秋| 在教室伦流澡到高潮h强圩电影 | 久久人妻天天av| 少妇高潮毛片色欲ava片| 大地资源网第二页免费观看| 最美女人体内射精一区二区| 特级a欧美做爰片第一次| 国产美女被爽到高潮免费a片| 99久久久无码国产精品免费| 亚洲国产午夜精品理论片在线播放| 偷拍女厕所视频一区二区三区| 欧美性xxxxx极品老少| 国产成人精品视频ⅴa片软件竹菊|